home *** CD-ROM | disk | FTP | other *** search
/ Chip 1996 April / CHIP 1996 aprilis (CD06).zip / CHIP_CD06.ISO / hypertxt.arj / 9308 / RECOGN.CD < prev    next >
Text File  |  1995-04-19  |  17KB  |  279 lines

  1.           @VOlvasson könnyebben!@N
  2.  
  3.           @VRecognita Plus 2.0@N
  4.  
  5.           A   karakterfelismerô  szoftverek  területén  Magyarországon
  6.           egyeduralkodó   Recognita   Plus   új  verzióval  lepte  meg
  7.           közönségét. Nagy kíváncsisággal vettük szemügyre.
  8.  
  9.  
  10.  
  11.           Kíváncsiak  voltunk  többek  között arra, hogy vajon mennyit
  12.           javítottak     a     szövegfelismerô     algoritmuson.    Az
  13.           SZKI--Recognita  Rt.  még  kellemesebb kezelhetôséget ígér a
  14.           felhasználóknak,  és  egy olyan javított algoritmust, ami az
  15.           egymáshoz  érô  betûket,  ezenkívül  faxokon vagy akár 9 tûs
  16.           mátrixnyomtatókon    kinyomtatott    szövegeket   is   képes
  17.           felismerni.
  18.  
  19.           A  Recognita azon kevés OCR programok közé tartozik, amelyek
  20.           nem   betûtípushoz   kötöttek,  azaz  gyakorlatilag  mindegy
  21.           milyen  dokumentumot  szeretnénk  bevinni  gépünkbe, lényeg,
  22.           hogy   latin   vagy   görög   szöveg  legyen.  Automatikusan
  23.           választja  szét  a  grafikát  és  a  szöveget. A beolvasandó
  24.           szöveg  bármilyen  betûtípussal  készülhet  --  Times Roman,
  25.           Helvetica  stb..  --  akár keverve is, 6--24 pont nagyságig.
  26.           Lehet   monospace   (például  Courier)  vagy  proporcionális
  27.           (például  Times  Roman),  egy vagy több oldal. Több, mint 80
  28.           ország  nemzeti  jeleit  ismeri,  ezek  közül válogathatunk,
  29.           melyeket   kell   felismernie,   melyeket   nem.  A  nemzeti
  30.           karakterek  keverve  is elhelyezkedhetnek egy oldalon belül.
  31.           Hétfajta  képtárolási,  s  több,  mint  85  szövegszerkesztô
  32.           formátumot    támogat.    80   ismertebb   lapolvasó   közül
  33.           válogathatunk.
  34.  
  35.  
  36.            @VMenürendszer@N
  37.  
  38.           A   felhasználót   átgondolt  menürendszer  segíti  a  Windows
  39.           alatt.  A  Recognitában  megtalálható  minden olyan nyomógomb,
  40.           ami  a  ""szokványos"  Windows-alkalmazásokban már megszokott.
  41.           Legördülô   menükbôl   választhatjuk   ki  a  mûveleteket,  de
  42.           gyakorlatilag  minden  lényeges  parancsot  megtalálhatunk  az
  43.           ikonlécen   is,   például  a  sûrûn  használt  ""OLVAS"-t  is.
  44.           Ezeket  a  parancsokat  tehát egy egérkattintással elérhetjük.
  45.           Néhány  opciót  is  állítani  lehet innen, ilyen például a lap
  46.           állása  (orientáltsága),  a  scanner  fényereje,  vagy  a  lap
  47.           mérete.  Az  ikonléc  mindig alkalmazkodik a munkafolyamathoz,
  48.           így  például  ha  egy  olvasást  félbeszakítunk, ""OLVAS" gomb
  49.           helyett   ""FOLYTAT"   és  ""MEGÅLL"  található  ugyanott.  Ha
  50.           valaki  jobban  szereti  a  legördülô menüket, le is tilthatja
  51.           az ikonlécet, megnövelve ezzel a szabad képernyôterületet.
  52.  
  53.  
  54.           @V @VElôforduló hibák@N
  55.  
  56.           A  Recognita legnagyobb ""ellensége" a rosszul megválasztott
  57.           lapolvasó,  ezért  annak  minôségétôl  nagyon  erôsen függ a
  58.           rendszer  hatékonysága.  Minél nagyobb a scanner felbontása,
  59.           annál  szebben  lehet  beolvasni  az  oldalakat,  így  nô  a
  60.           felismerés esélye.
  61.  
  62.           Ha   két  betû  túl  közel  van  egymáshoz,  kis  felbontású
  63.           letapogatásnál   grafikusan   össze   fognak  érni.  Az  így
  64.           összeérô  betûket  nehéz  szétválasztani.  A  régi Recognita
  65.           ilyenkor  nem  ismerte  fel,  hány  betûrôl  van  szó, így a
  66.           mintavételezésül    használt    terület    több    karaktert
  67.           tartalmazott.    A    2.0-ás   változatban   javítottak   az
  68.           algoritmuson,  és az új változat a legtöbb esetben már képes
  69.           az  így összeérô betûket szétválasztani. Az is elôfordulhat,
  70.           hogy  túlságosan  összefolynak  a  betûk, s nem sikerül ôket
  71.           szétválasztani.  Ezeket  az  alakzatokat  a továbbiakban egy
  72.           betûként  kezeli  a  program,  ezért nem tudja felismerni az
  73.           ôket   alkotó   betûket.   Ha   csak   két  betû  ér  össze,
  74.           szerencsénk    van,    mert   kétbetûs   kombinációt   képes
  75.           megtanulni,    így   késôbb   ezekkel   a   betûpárokkal   a
  76.           továbbiakban könnyedén megbirkózhatunk.
  77.  
  78.           Nemcsak  a  betûk érhetnek össze, hanem ugyanígy a sorok is.
  79.           Ilyenkor  a  felismerésre  szánt  területen  -- hasonlóan az
  80.           összeérô  betûkhöz  --  nem  egy,  hanem több jelet hisz egy
  81.           betûnek.  A  legtöbb  esetben ki lehet védeni ezt oly módon,
  82.           hogy  a lapolvasó kontrasztját kissé lejjebb vesszük. Emiatt
  83.           a  betûket  alkotó  vonalak  vastagsága  csökkenhet,  és  jó
  84.           esetben  szétválnak az összefolyó jelek. A legjobb megoldást
  85.           azonban  egy  nagyobb  felbontású letapogató adja, ugyanis a
  86.           jelek  közötti  vékonyabb  hézagokat csak finom raszterméret
  87.           mellett lehet felismerni.
  88.  
  89.           Optimális   esetben   megfelelnek   a   sorok  és  az  egyes
  90.           karakterek    közötti   távolságok.   Van   azonban   néhány
  91.           betûtípus,   ahol   a   karakter   rajzolata  néhány  ponton
  92.           elvékonyodik.   Ilyen   a   Times  Roman,  és  annak  összes
  93.           változata.  Az  elvékonyodások  adják  e  betûtípus  könnyen
  94.           felismerhetô   jellegét.   A   Recognita   nem   szereti  az
  95.           elvékonyodásokat,  ugyanis  a  scanneren beolvasott grafikus
  96.           file  a  vékonyabb  vonalakat  ""elfelejti",  emiatt  a betû
  97.           egyes  részei  nem  érnek  össze, és máris sok javítani való
  98.           akad  a  szövegben.  Ha  ezeket a ""csúnya" karaktereket meg
  99.           akarjuk  taníttatni  a programmal -- abban a reményben, hogy
  100.           legközelebb  könnyebb  dolgunk lesz --, könnyen elronthatjuk
  101.           a  már  viszonylag  jól bevált felhasználói fát, s emiatt az
  102.           egyébként   kitûnôen   olvasható   betûket   sem  fogja  jól
  103.           felismerni.  Például  ha  egy olyan betûtípust tanítunk meg,
  104.           aminél  a  kis  ""a" betû felül nem záródik rendesen (sajnos
  105.           van   ilyen),  elôbb-utóbb  az  ""u"  betût  ""a"-nak  fogja
  106.           felismerni  a  rendszer.  Tanítás  elôtt ajánlatos emiatt új
  107.           felhasználói fát definiálni.
  108.  
  109.           Nem  sokat  lehet  segíteni a rossz kontraszthatású szövegek
  110.           felismerésén.  A  Recognita  által grafikusan beolvasott kép
  111.           egybites,    azaz    nem   tartalmaz   sem   színekre,   sem
  112.           szürkeárnyalatokra  vonatkozó  információt.  Ha a karakterek
  113.           és  sorok kellô távolságban vannak egymástól, és még a betûk
  114.           színe   is  teljesen  elütô,  akkor  nincs  sok  teendônk  a
  115.           dokumentummal,  csak  bele kell helyezni a scannerbe, és egy
  116.           gombnyomással   beolvastatni   a  szöveget.  Más  a  helyzet
  117.           azokkal  a  dokumentumokkal,  ahol  a betûk színéül a fekete
  118.           helyett   --   szabad   szemmel   jól  olvasható  --  zöldet
  119.           választottak.  Csak  nagy  kínszenvedéssel  tudjuk  az ilyen
  120.           szöveget  elfogadható  pontossággal  rögzíteni, mivel a zöld
  121.           szín  szürkeárnyalata  azon  a  határon  van,  ahol  @Kmég nem@N
  122.           nevezhetô  sötétnek,  de  @Kmár  nem@N  világos.  Grafikus képen
  123.           hol  feketének,  hol  pedig  fehérnek  fogjuk látni az ilyen
  124.           szöveget.  Világos,  hogy  ebben  az esetben nem sokat lehet
  125.           várni a szoftvertôl.
  126.  
  127.           Még  rosszabb  a  helyzet,  ha a kinyomtatott szöveget fehér
  128.           papíron  sárga betûvel készítették el. Még szabad szemmel is
  129.           nehezen  olvasható  az  ilyen iromány, Recognitával pedig ne
  130.           is  kísérletezzünk. Az ilyen gyenge kontrasztú szövegeket az
  131.           1  bites  képkezelés  miatt  nem  tudja beolvasni a scanner,
  132.           helyette  tiszta fehér lapot kapunk, amire kézzel bevihetjük
  133.           ugyan   a   szöveget,  de  erre  bármelyik  szövegszerkesztô
  134.           alkalmas.  Ugyanez  a  helyzet  a  szürke alapon fekete, s a
  135.           színes   alapon  fekete  betûkbôl  álló  szövegekkel  is.  A
  136.           Világgazdaság  címû hetilap beolvasásakor például igen rossz
  137.           eredményt  értünk  el. Ennek a zöld alapszín és a sûrû sorok
  138.           voltak az okai.
  139.  
  140.           Hiányoltuk,  hogy a Recognita nem kezeli a színes anyagokat.
  141.           A  színinformációk  miatti többletteendôk miatt valószínûleg
  142.           lassabban  készítené  el  a  szövegfile-t, viszont az emberi
  143.           munkát nagymértékben csökkenthetné egy ilyen program.
  144.  
  145.  
  146.            @Vùjdonság@N
  147.  
  148.           A   régi   Recognita   nem   tudta   megfelelôen  kezelni  a
  149.           telefaxokat és a mátrixnyomtatóval kinyomtatott szövegeket.
  150.  
  151.           A  faxnál  egyszerû a helyzet, ""csak" figyelembe kell venni
  152.           a  durva  letapogatás okozta összemosódásokat. Hagyományosan
  153.           a  fax  felbontási finomsága igen durva, így annak minden --
  154.           szövegátvitelre   vonatkozó  --  paramétere  hasonló  a  kis
  155.           felbontású  lapolvasókéhoz. Az egyes közel kerülô karakterek
  156.           és    sorok    összeérhetnek,   a   kontraszthatások   pedig
  157.           meglepetéseket  okozhatnak.  Az ilyen torzított dokumentumon
  158.           azután  nem  sokat segíthet egy jó minôségû scanner sem. Még
  159.           a  dokumentum  továbbítása  elôtt célszerû a készüléket FINE
  160.           vagy  SuperFINE  minôségre állítani, így a dokumentum sokkal
  161.           nagyobb  felbontásban  kerül  át  a  vonal másik végére. Aki
  162.           arra   számít,   hogy   a   faxon   kapott   összes  anyagát
  163.           könnyûszerrel  beolvastathatja,  nagyot  téved. A fax típusú
  164.           szöveget  a Recognita Plus 2.0 viszonylag könnyen elolvassa,
  165.           kivéve,  ha  a  hazai  telefonvonal  --  köztudottan  jó  --
  166.           minôsége   folytán   az   irat  nehezen  olvashatóvá  válik.
  167.           (Ajánlatos  olyan  faxkészüléket  venni,  ami  képes  az ECM
  168.           hibavédett   irattovábbításra   is.)  Teszteléseink  alapján
  169.           elmondhatjuk,  hogy a tipikusan hazai (rossz minôségû) faxot
  170.           nehezen  emészti  meg  a szoftver. Ez sajnos nem a Recognita
  171.           hibája.  Azért  sajnos,  mert  ez utóbbin könnyebben lehetne
  172.           javítani...  A  Recognitától  tehát  ne  várjunk csodákat --
  173.           vegyük  figyelembe,  hogy  a különbözô cégektôl faxon kapott
  174.           anyagokat gyakran még magunk is nehezen olvassuk.
  175.  
  176.           Nagyon   sokan   még  ma  is  inkább  a  --  már  bevált  --
  177.           mátrixnyomtatókat  használják.  Ennek  egyik  oka  az lehet,
  178.           hogy  a  többpéldányos papírra sem a tintasugaras, sem pedig
  179.           a  lézernyomtatók  nem  képesek  nyomtatni.  (Egyik  tipikus
  180.           mátrixnyomtatós alkalmazás a számlaírás.)
  181.  
  182.           A  tûs  nyomtatókkal  írt  szöveg  betûi  pontokból tevôdnek
  183.           össze.  E  pontok  elhelyezkedése  nagyban  függ  a  printer
  184.           paramétereitôl  és  minôségétôl.  A  kilenctûseknél a pontok
  185.           teljesen  külön ""élnek", azaz minden pont szabad szemmel is
  186.           jól  szétválasztható.  Ha  ezt  a  betût beszkennelve nézzük
  187.           meg,  láthatjuk,  hogy  a  pontok között kis hézagok vannak.
  188.           Mivel   a   betûket  leginkább  a  köztes  hézagokkal  lehet
  189.           egymástól  elválasztani,  a  Recognita elôzô verziója minden
  190.           pont   közötti   rést  betûelválasztásnak  vett.  Ha  az  új
  191.           verzióban  bekapcsoljuk  a  mátrixnyomtató opciót, egy másik
  192.           algoritmus  kezd  dolgozni,  mely könnyebben megküzd ezzel a
  193.           problémával.  Ezeknél  a  nyomtatóknál  azonban felmerül még
  194.           egy  probléma:  draft  (gyorsnyomtató)  üzemmódban általában
  195.           nagyon  halványan  nyomtatnak,  így  ugyanazok  a  problémák
  196.           merülhetnek fel, mint a színes anyagoknál.
  197.  
  198.           ùjdonság  még  a  Windows 3.1 OLE funkciójának kihasználása.
  199.           Az   új   Recognita  tehát  összekapcsolható  más  windowsos
  200.           szövegszerkesztôkkel,   ha   ezt   beállítjuk   a  Recognita
  201.           setupjában, és aktívvá tesszük a karakterfelismerôt.
  202.  
  203.           ùgy érzem, szólnunk kell néhány meglepetésrôl is.
  204.  
  205.           Itt  van  rögtön az egyik: 300 dpi-vel beolvastam egy lapot,
  206.           azután  beállítottam  a  kereteket,  amit azon nyomban el is
  207.           mentettem   sablonként.   Ugyanezt   a   lapot  400  dpi-vel
  208.           olvastam  be,  és  az  elmentett keretezést visszatöltöttem.
  209.           Csodálkoztam,  amikor olyan szövegrészleteket is felismert a
  210.           program,  ami  nem  volt  benne a keretben. Mint kiderült, a
  211.           keret máshová került a nagyobb felbontás következtében.
  212.  
  213.           Még  egy  furcsaság:  A  grafikus  ablakokat  lezártam, majd
  214.           beolvastam  egy  oldalt. Az eredmény meglepô volt, ugyanis a
  215.           képernyôn   nem   látható  kereteket  hasonlóan  beszínezte,
  216.           mintha   a   ""lap  képe"  ablak  nyitva  lett  volna,  csak
  217.           barnával.  Még a menü is kapott a ""festékbôl". A gyártó cég
  218.           már dolgozik e hiba kijavításán.
  219.  
  220.           Ez  volt  a  legkellemetlenebb:  Egy  meglévô .TIF formátumú
  221.           file-t  beolvastunk  a  windowsos  változattal  a memóriába,
  222.           majd   az   ""olvas-utolsó   képbôl"   menübôl  fel  akartuk
  223.           ismertetni  a  szöveget.  Az eredmény egy ablakocska volt, a
  224.           hírhedt  ""UAE" hibaüzenettel... Ezt a jelenséget nem tudtam
  225.           újra produkálni, ezért a Windows hibájául róttam fel.
  226.  
  227.           Volt   azonban   kellemes   is:  Egy  ilyen  elszállás  után
  228.           újraindítottam  a  gépet,  majd  a  Recognitát.  A  rendszer
  229.           felismerte  a  hiba  tényét,  és  visszavarázsolta  az addig
  230.           beolvasott szöveget.
  231.  
  232.  
  233.            @VÖsszegzés@N
  234.  
  235.           A  régi  változathoz  képest  valóban javítottak a felismerô
  236.           algoritmuson.  Amit  nem  ismer  fel (vagy rosszul), az mind
  237.           ""megmagyarázható".  Kicsit  filozófikus  kérdés, hogy vajon
  238.           érdekli-e ez a felhasználót.
  239.  
  240.           Mindenesetre  általánosan  elmondható  az,  hogy a Recognita
  241.           Plus  2.0  azoknak a felhasználóknak lehet segítôtársa, akik
  242.           nagy   mennyiségben   jó  minôségû,  lehetôleg  fekete-fehér
  243.           nyomtatott  szöveget  szeretnének  beolvasni számítógépükbe.
  244.           Nagy  segítséget nyújthat például, ha egy nagyobb cég bejövô
  245.           hivatalos  leveleit  --  vagy  a  feldolgozandó  részeit  --
  246.           rögzíteni   akarják  iktatás  céljából.  Egyre  több  helyen
  247.           írják  a leveleket jó minôségû lézernyomtatóval, az ilyen és
  248.           más,  géppel írt (írógép vagy számítógép) leveleket be lehet
  249.           olvastatni ezzel a szofverrel.
  250.  
  251.           @KRudnai Tamás@N
  252.  
  253.  
  254.           @VFelismerési pontosság@N
  255.  
  256.           Az  új  termék  teljesítôképességének elbírálására különbözô
  257.           anyagokat     válogattunk     össze.     Beolvasásuk    után
  258.           összeszámoltuk,  hány  olyan  karakter volt, amiben nem volt
  259.           biztos  (megjelölte),  és  rosszul  ismerte  fel; amiben nem
  260.           volt  biztos  (megjelölte),  és  jól  ismerte  fel; amit nem
  261.           ismert  fel,  és pirossal megjelölte; amit nem ismert fel és
  262.           nem  jelölt  meg;  ami  elveszett;  amit a piszkok, grafikák
  263.           miatt  karakternek  ismert  fel; amit nem a megfelelô helyre
  264.           tett  be  (például  ékezet  helyett  vesszô  a  felette levô
  265.           sorban).
  266.  
  267.           Ebbôl  a  kiértékelésbôl kiszámoltuk, hány százalékos volt a
  268.           pontosság,  és  hány  javítás  kellett  volna  ahhoz, hogy a
  269.           beolvasott szöveg 100%-ig pontos legyen.
  270.  
  271.                                       @Vkarakter@N      @Vpiros@N      @Vsárga@N      @Vjelölt@N      @Vjelölt@N     @Vnem    jelölt@N     @Vleütés@N       @Vfelismerés@N
  272.                                       @Vösszesen@N                            @Vrossz@N       @Vjó@N         @Vrossz@N          @Vkell    még@N     @Vpontossága@N
  273.  
  274.           @Vlézernyomtató@N         7347          5           7           3           4           28              31            99,6%
  275.           @Vfényes  prospektuosk@N   973           1           5          4           2           2               6             99,4%
  276.           @Vnapilapok@N             965           12          39          31          20          18              49            94,9%
  277.           @Vtelefax  anyag@N         1539          73          86         104         55          17              121           92,1%
  278.           @Vmátrixnyomtató@N        854           49          47          65          31          10              75            91,2%
  279.           @Vvegyes  anyagok@N        11678         140         184        207         81          75              282           97,6%